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摘要 : 阴 地 蕨 是 蕨 类 阴 地 蕨 科 阴 地 蕨 属 常 用 植物 药 ， 其 生长 发 育 有 一 定 的 代表 性 ， 
为 获得 其 转录 组 等 生物 学 信息 进行 了 二 代 测 序 和 分 析 。 该 文 以 新 鲜 阴 地 蕨 全 株 为 材 
料 ， 用 Ilumina HiSeq 2500 平台 进行 全 转录 组 测序 ， 干 净 序 列 经 组 装 后 得 单一 基因 

( Unigene ) ， 将 Unigene 在 非 匈 余 和 蛋白 /核酸 数据 库 〈( nonredundant protein 
database,Nr) 、 核 酸 序列 数据 库 (Nucleotide Sequence Database, Nt) 、 基 因 本 体 论 
数据 库 (gene ontology,GO)、 和 蛋白 质 真 核 同 源 数据 库 (clusters of eukaryotic orthologous 
groups, COG ) 、 东 京 基因 与 基因 组 百科 全 书 C Kyoto encyclopedia of genes and 
genomesKEGG) 、 和 蛋白 质 序列 数据 库 SwissProt 和 Interpro 进行 生物 信息 学 分 析 。 结 
果 显 示 共 获得 干净 序列 6.67 Gb ， 组 装 后 得 到 58 646 个 Unigene， 平 均 长 度 1023 
bp; Unigene 在 上 述 数据 库 的 总 体 注 释 率 为 69.25%, HH, Æ GO 数据 库 中 20 762 
个 基因 被 注释 到 生物 功能 、 细 胞 组 分 和 分 子 功能 3 个 本 体 的 52 个 功能 组 ，COG 注 
Fk f 20 633 个 基因 并 将 其 划分 为 25 FIRER, TE KEGG 数据 库 中 比 对 注释 了 29 377 
个 基因 ， 可 划分 为 5 个 大 类 、19 个 亚 类 代谢 途径 , 据 此 科 选 出 八 类 植物 激素 信号 转 导 
相关 的 41 个 基因 家 族 ; 通过 比 对 共 得 到 43 102 个 编码 序列 (coding sequence, CDS), 
平均 长 度 749 bp,N50 为 1 137; 筛选 到 60 个 转录 因子 transcript factor,TF ) 家 族 共 1 502 
个 转录 因子 基因 ; 共 发 现 17 195 THERE ATE (single-nucleotide polymorphism, 
SNP) 位 点 ， 其 中 碱 基 转换 11 122 个 ， 题 换 6 073 个 ; 发 现 了 8245 个 简单 序列 重复 

simple sequence repeat, SSR) ， 数 量 最 多 的 为 二 核 音 酸 重复 和 三 核 苷 酸 重 复 。 这 
些 结果 从 功能 和 结构 方面 提供 了 阴 地 蕨 整体 转录 组 信息 和 涉及 植物 激素 信号 转 导 的 
潜在 基因 ， 为 进一步 深入 研究 阴 地 蕨 的 生长 发 育 、 遗 传 、 品 种 鉴别 等 提供 了 分 子 生 
物 学 的 基础 数据 。 
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Abstract: 

Botrychium ternatum is a commonly used folk medicinal plant, its growth and 
development have shown some typical representative characters of some fern plants . 

But researches on it mainly focus on chemical constituents, clinical and pharmaco- 

logical effects, classification and distribution investigation, few about its molecular 
biology.Plant hormone is a sort of small signal molecular and has very important function 
to plant growth and development, and plant hormone signal transduction play key role in 
hormonal equilibrium. To obtain related information, Illumina HiSeq 2500 platform was 
used to perform transcriptome sequencing and bioinformatics analysis were carried out 
afterwards. Results showed 6.67 Gb clean reads was obtained and 58 646 Unigenes were 
assembled with an average length of 1 023 bp. Unigenes were annotated in NR, NT, GO, 
COG, KEGG,Swissprot and Interpro databases with an overall annotation rate of 
69.25%.Through GO annotation, 20 762 genes were annotated to three terms and 52 
functional groups. 20 633 genes were divided into 25 functional cluster by COG 
annotation. Through KEGG analysis, 29 377 genes were mapped to 5 groups and 19 
sub-groups pathways. In addition, 41 gene families related to eight plant hormone signal 
transduction were screened. Through BLAST and ESTScan, 43 102 coding sequences 
(CDS) were found, with average length 749 bp, N50 1 137. 60 Transcript Factor gene 
families with total 1 520 genes were screened out, including C3H, MYB,MYB-related, 
bHLH,AP2-EREBP,WRKY and GRAS. 17 195 single-nucleotide polymorphisms (SNP) 
were found, inclding 11 122 transitions and 6 073 transversion. And 8 245 Simple 
sequence repeats were found, among them di-nucleotide repeats and tri-nucleotide repeats 
rank the top two abundance. Those data sets provide valuable source for further research 
on the growth and development of B ternatum. 


Key words: Botrychium ternatum, transcriptome, plant hormone, signal transduction, 
gene screening 


植物 激素 是 一 类 信和 号 小 分 子 ， 对 于 植物 的 生长 发 育 起 着 重要 作用 ， 其 通过 植物 
激素 信号 转 导 系 统 发 挥 作用 : 内 因 或 外 因 可 促使 一 系列 植物 激素 基因 诱导 和 表达 ， 
作用 于 相应 的 激素 受 体 或 组 件 ， 最 终 显 现 出 不 同 的 性 状 〈 苏 谦 等 ，2008) 。 常 见 的 
植物 激素 有 : 生长 素 、 细 胞 分 裂 素 、 亦 霉 素 、 有 脱落 酸 、 乙 烯 、 油 荣 内 酯 素 、 来 莉 酸 
和 水 杨 酸 等 ， 在 这 些 激素 信号 转 导 系统 中 有 的 受 体 或 关键 组 分 因 互 作 (interact) 或 
串 话 〈crosstalk) 会 产生 协同 或 持 抗 的 作用 而 使 信号 途径 网 络 化 (Ohri et al., 2015) 。 
比如 光 信 和 号 可 以 通过 与 生长 素 信 号 途径 发 生 串 话 从 而 调控 根 的 发 育 〈Kumari & 
Panigrahi, 2019) ,光敏 色素 作用 因子 (PIFs) 可 以 响应 赤 霉 素 、 油 菜 内 酯 素 、 茉 莉 酸 、 
生长 素 嘻 哄 乙 酸 IAA)、 脱 落 酸 、 乙 烯 等 信号 途径 ， 通 过 这 个 “枢纽 ”分 子 将 激素 信 
号 途径 联 成 了 复杂 的 网 络 〈 任 小 芸 等 ，2016) 。 植 物 激 素 还 可 通过 表 观 遗传 调控 促 
HFE, WREEK RHR, MAREKI DNA 甲 基 化 、 组 蛋白 翻译 后 修饰 介 
导 的 染色 质 压缩 起 重要 作用 从 而 影响 开花 CCampos-Rivero et al., 2017) 。 另 外 ， 在 
植物 应 对 土壤 病原 菌 侵 害 时 也 进化 出 复杂 的 激素 信号 网 络 来 保护 自 刁 CBerens et al., 
2017) 。 可 见 植物 的 激素 信号 转 导 系统 对 植物 的 生长 发 育 、 防 御 、 环 境 适 应 等 具有 

Dj3REE (Botrychium ternatum) ， 又 名 一 条 云 、 小 春花 、 蛇 不 见 、 即 贰 细 辛 、 独 
脚 殴 、 冬 草 等 ， 属 于 阴 地 蕨 科 阴 地 蕨 属 ， 一 年 生 草本 药 用 植物 ， 多 以 孢子 进行 繁殖 ， 
其 生长 发 育 具有 一 定 的 代表 性 。 是 我 国民 间 ， 尤 其 是 贵州 、 福 建 等 地 常用 一 种 的 中 


草药 ， 因 其 具有 清热 解毒 、 止 咳 、 止 血 等 功效 ， 主 要 用 于 小 儿 高 热 惊 搞 ， 肺 热 咳嗽 ， 
咳 血 ， 百日咳， 毒蛇 咬 伤 , 目 赤 火 眼 , 目 生 丑 障 等 ( 齐 建 红 ，2012; 赵 俊 华 等 ，2008; 
阮 君 山 ，2002) 。 目 前 对 阴 地 蕨 的 研究 较 少 ， 主 要 集中 在 化 学 成 分 、 临 床 及 药理 作 
用 、 分 类 及 分 布 调查 等 方面 ， 分 子 生 物 学 相关 的 信息 较 少 ， 限 制 了 更 深入 的 研究 。 
转录 组 〈transcriptome) 是 指 某 一 生理 条 件 下 ， 细 胞 内 所 有 转录 产物 的 集合 ， 包 括 信 
使 RNA (mRNA) 、 核 糖 体 RNA CRNA) 、 转 运 RNA (tRNA) 及 非 编码 RNA(none 
coding RNA)。 随 着 测序 技术 的 发 展 和 普及 ， 转 录 组 测序 (RNA-seq) 已 经 成 为 从 分 
子 水 平 研究 生物 基因 及 其 调控 的 重要 方法 。 本 研究 通过 高 通 量 测 序 获得 阴 地 蕨 全 转 
录 组 ， 通 过 生物 信息 学 方法 对 其 进行 分 析 ， 得 到 阴 地 蕨 转录 组 的 整体 注释 信息 、 筛 
选 出 植物 激素 信号 转 导 相 关 的 潜在 基因 及 其 单 核 苷 酸 多 态 性 〈single nucleotide 
polymorphism, SNP) 和 短 序 列 重复 多 态 性 〈short sequence repeat polymorphism, SSR ) 
等 信息 ， 为 进一步 从 分 子 水 平 开展 阴 地 蕨 生长 发 育 、 品 种 鉴定 等 研究 提供 了 有 用 的 


1 材料 与 方法 
1.1 材料 
新 鲜 、 成 熟 阴 地 蕨 植物 全 株 3 株 〈 包 含 根 、 葵 、 叶 及 孢子 ， 经 黔 南 医学 高 等 专 
科学 校 王 传 明 副教授 鉴定 为 阴 地 蕨 ) 2016 年 7 月 采 于 贵州 省 黔 南 州 都 匀 市 闻 斗 篷 山 
地 区 (海拔 约 1 500 m， 东 经 107°20'-107°27'E ， 北 纬 26"12'-26"16N) ， 立 即 用 清 
水 种 洗 干 净 、 吸 水 纸 吸 干 后 放 入 干冰 盒 中 带 回 ， 备 提 RNA. 
1.2 cDNA 文库 制备 及 测序 
将 植物 全 株 用 液 所 研磨 成 粉末 ， 用 RNA 提取 试剂 盒 〈 艾 德 莱 公 司 ， 北 京 ) 提取 
总 RNA 并 将 DNA We, Hist R SEU s e (Oligo dT) 的 磁 珠 语 集 mRNA, 
经 琼脂 糖 电泳 及 微量 核酸 检测 仪 NanoDrop 检测 合格 后 用 试剂 盒 依次 合成 cDNA、 纯 
化 、 修 复 粘 性 末端 、 在 3 末端 加 上 碱 基 “A” 并 连接 接头 ， 然 后 进行 片段 大 小 选择 ， 最 
后 进行 PCR 扩 增 构建 cDNA 文库 ; 构建 好 的 文库 经 检验 合格 后 上 Ilumina HiSeq 
2500 平台 进行 测序 。 
1.3 De novo (AA) 组装 
将 测序 得 到 的 原始 序列 Craw reads) 去 除 低 质量 、 接 头 污染 以 及 未 知 碱 基 NN 含量 
过 高 的 序列 得 到 干净 序列 Cclean reads) ， 使 用 Trinity 软件 (v2.0.6) CGrabherr et 
al.,2011 ) 对 clean reads 进行 de novo 组 装 , 然后 使 用 Tgicl 软件 (v2.0.6) CPertea et 
al., 2003) 将 组 装 的 转录 本 进行 聚 类 去 见 余 , 得 到 单一 基因 Unigene) 用 于 后 续 分 析 。 
1.4 Unigene 功能 注释 及 分 析 
为 了 解 unigene 的 功能 ,用 生 信 分 析 软 件 将 unigene 在 七 大 功能 数据 库 中 进行 注释 : 
用 Blast (v2.2.23) 进行 NT. NR. COG, KEGG 以 及 SwissProt 注释 , 用 Blast2GO 
(v2.5.0)(Conesa et al., 2005) 以 及 NR 注释 结果 进行 GO 注释 ， 用 InterProScan5 
(v5.11-51.0) (Quevillon , et al., 2005) 进 行 nterPro 注释 。 根 据 KEGG 信号 途径 
map04075， 将 经 注释 的 相关 基因 进行 归 类 ， 即 得 植物 激素 信号 转 导 相关 基因 。 
1.5 转录 组 结构 分 析 
CDS 《编码 序列 ，Coding sequences) 预测 : ” 根据 功能 注释 结果 ， 按 照 NR， 
SwissProt, KEGG, COG 的 数据 库 优 先 顺序 ， 挑 选 Unigene 的 最 佳 比 对 片段 作为 该 
Unigene 的 CDS 。 未 能 注释 上 的 Unigene 使 用 预测 得 到 的 CDS 作为 模型 进行 建 模 ， 
然后 使 用 ESTScan (v3.0.2) ( Iseli et al., 1999) 进 行 CDS 预测 。 
TF (转录 因子 ，Transcript factor) 编码 能 力 预 测 : 用 getorf(EMBOSS:6.5.7.0) ( Rice 
et al., 2000) 检测 Unigene 的 开放 阅读 框 CORF, Open reading frame) ， 使 用 
hmmsearch(v3.0) ( Mistry et al., 2013) 将 ORF 比 对 到 转录 因子 蛋白 结构 域 (数据 来 源 


202001.00105v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


于 PlantTFDB)， 然 后 根据 PlantTFDB 描述 的 转录 因子 家 族 特征 对 Unigene 进行 TF 
编码 能 力 鉴定 (Jin et al., 2017)。 

SSR 和 SNP 检测 : 用 MISA (v1.0) (Thiel et al., 2003) 对 Unigene 进行 SSR 检 
Mj; Hj HISAT € v0.1.6-beta) (Kim et al., 2015) 把 clean reads 比 对 到 Unigene， 然 后 
使 用 GATK (v3.4-0) (McKenna A etal., 2010) 检测 SNP. 


2 结果 与 分 析 
2.1 测序 及 组 装 结果 

本 项 目 使 用 Ilumina Hiseq 平台 一 共 测 得 总 原始 序列 Craw reads) 数据 量 为 55.52 
Mb, 过 滤 后 得 到 干净 序列 〈clean reads) 44.45 Mb, clean reads 比率 达到 80.6%, WF 
深度 属 “ 深 度 ” (high deep，>15 Mb) 测序 。 得 到 干净 总 碱 基 数 6.67 Gb ， 组 装 后 
得 到 58 646 个 Unigene， 平 均 长 度 1023 bp, N50 、N70 均 大 于 
1000 bp (X 1) 。 所 有 Unigene 的 长 度 均 大 于 300 bp, 分 布 在 300-400 bp 的 最 多 , 占 
25.5%, KF 1 000bp 的 累计 占 39% (图 1) ， 说 明 测 序 连 续 性 和 组 装 效果 较 好 。 


表 1 Unigene 的 质量 指标 
Table 1 Quality metrics of Unigene assemble 


i A 平均 长 度 、 
注 : 样本 数 平均 长 度 N50 N70 N90 GC(%) 
Sample Total number Mean length 


m D] Hi 


. 58 646 1 023 1762 1102 399 44.64 
Botrychium ternatum 


Unig 
ene 长 度 从 大 到 小 排序 后 逐个 累加 至 所 有 Unigene， 总 长 度 的 50% 时 ， 最 后 一 个 累加 的 数值 大 小 
即 为 N50; N70、N90 以 此 类 推 。GC(%). 碱 基 G 和 C 的 比例 。 

Note: N50. A weighted median statistic that 5096 of the total length is contained in Unigenes great than 
or equal to this value. The same of N70 and N90. GC(%). Percentage of G and C bases in all 
Unigenes. 


Number of B.ternatum Unigene 


阴 地 蕨 Unigene 数目 


i 
PPP 4449449244949 949 4 4949 49 9. 495 9 9.449 49 5 


序列 长 度 (nt) sequence size(nt) 


A1 


Fig. 1 


Botrychium ternatum Unigene 的 长 度 分 布 


2.2 Unigene 功能 注释 
将 Unigene 进行 七 大 功能 数据 库 注释 (NR, NT, GO, COG, KEGG,Swissprot 和 


Interpro)， 注 释 结果 见 表 2。 在 NR( NCBI Æ AE, NCBI protein database) 中 得 到 
最 多 注释 (65.4%) ， 总 体 注 释 率 为 69.25%。 根 据 NR 注释 结果 统计 了 注释 物种 分 布 


Length distribution of Botrychium ternatum Unigene 


( 见 图 2) ， 在 蕨 类 植物 小 立 碗 伦 CPhyscomitrella patens) 和 江南 卷 柏 (Selaginella 


moellendorffii) 中 共 注 释 了 24%， 跟 阴 地 蕨 蕨 类 植物 属性 相符 ， 另 外 在 常用 的 参 比 物 


种 北美 云 杉 (Picea sitchensis) 中 注释 也 较 高 (14.21%) ， 可 能 跟 北美 云 杉 本 身 的 注 


释 较 好 有 关 (Ralph et al., 2008) 。NR、COG( 直 系 同 源 基因 艇 数据 库 ，Clusters of 


Orthologous Groups database)、KEGG( 京 都 基因 及 基因 组 数据 库 ，Kyoto Encyclopedia 
of Genes and Genomes database), Swissprot(Swiss 和 蛋白 数据 库 ) 以 及 Interpro (Interpro 


蛋白 数据 库 ) 的 注释 结果 展示 在 图 3， 在 五 个 数据 库 中 都 注释 上 的 有 12 522 个 ， 占 
全 部 unigene 的 21.4%。 


表 2 B.ternatum Unigene 功能 注释 结果 统计 
Table 2 Statistic of function annotation of B.ternatum Unigene 


Unigene = 、 Swissprot 注 KEGG COG Interpro 、 dT 
TNR 9 Nr 注释 Nt 注释 ge S^ T GO 注释 、 
Zi 总 数 i m TÉ 注释 ”注释 注释 注释 
Values Unigene Swissprot KEGG COG Interpro Over 

Annotated Annotated Annotated 

Total Annotated Annotated Annotated Annotated all 
AH 58,646 38,352 23,391 27,049 29,2241 16,678 30,375 15,905 40,610 
Number 
占 比 

0096 65.40% 39.89% 46.12% 49.86% 28.44% 51.79% 27.12% 69.25% 

Percentage 


ya 
yE . 


总 体 注释 为 被 七 大 数据 库 


Note: Overall is total Unigene annotated by either of the seven databases. 


任意 


个 数据 库 注 释 上 的 Unigene 总 数 。 
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m 北美 云 杉 Picea sitchensis 
m iza Physcomitrella patens 
江南 卷 柏 Selaginella 


moellendorffii 


中 朝鲜 区 Cynara cardunculus var. 
scolymus 


m 其 它 other 


2 B.ternatum Unigene 注释 物种 


Fig.2 Annotation species statistics of Botrychium ternatum 


3 NR. COG, KEGG, Swissprot 以 及 Interpro 的 五 个 数据 库 注 释 韦 恩 图 
Fig. 3 Venn diagram between NR, COG, KEGG, Swissprot and Interpro 


2.3 GO 注释 结 

通过 GO 注释 将 20 762 个 阴 地 蕨 基因 或 基因 产物 赋予 三 大 类 术语 (term) : 分 子 
功能 、 细 胞 组 分 和 生物 学 过 程 ，GO 功能 分 布 如 图 3。 在 生物 学 过 程 中 涉及 基因 数量 
处 于 前 三 位 的 分 别 是 : 代谢 过 程 Cmetabolic process ) 、 细 胞 过 程 (cellular process); 
和 单 组织 过 程 (single-organism process) 。 细 胞 组 分 中 最 多 的 是 细胞 Cell) ， 最 少 
的 是 核 昔 (nucleotide) 。 分 子 功能 中 数量 最 多 的 是 催化 活性 〈catalytic activity) 和 结 
合 (binding)， 其 次 是 转运 活性 (transport activity) 。 
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注 : 1. 生物 粘 附 ，2. 生物 调节 ; 3. 细胞 死亡 ;4. 细胞 成 分 组 织 或 生物 发 生 ; 5. 细胞 过 程 
6. 解 毒 ; 7. 发 展 过程 ; 8. 生 长 ; 9. 免 疫 系 统 过 程 ; 10. 定 位 ; 也 .运动 ; 12. 代 谢 过 程 ; 13. 多 组 织 过 程 ; 
14. 多 细胞 生物 的 过 程 ; 1$. 生 物 过 程 的 负 调控 ; 16. 生 物 过 程 的 正 向 调节 ; 17. 生 物 过 程 调 节 ; 18. 
繁殖 ;19. 生 殖 过 程 ，20. 应 激 反 应 ; 21. 节 律 过 程 ，22. 信 号 ; 23. 单 组 织 的 过 程 ，24. 细 胞 ，25. 细 胞 
连接 ; 26. 细 胞 部 分 27. 细胞 外 区 域 ，28. 细 胞 外 区 域 部 分 ，29. 大 分 子 复合 体 ，30. 膜 ;31. 膜 部 分 ; 
32. 膜 封闭 腔 ; 33. 类 核 ，34. 细 胞 器 ; 35. 细 胞 器 部 分 ，36. 超 分 子 纤 维 ; 37. 合 胞 体 ，38. 病 毒 粒 子 ; 
39. 病 毒 粒 子 部 分 ，40. 抗 氧化 活性 ; 41. 结 合 ; 42. 催 化 活性 ;43. 电 子 载体 活性 ，44. 分 子 功 能 调节 
器 ;4S. 分 子 传感器 ，46. 核 酸 结 合 转录 因子 活性 ; 47. 营 养 储 存 ; 48. 蛋 白质 标记 ; 49. 信 号 传感器 ; 

S0. 结 构 分 子 ，$1. 转 录 因 子 活 性 ， 蛋 白质 结合 ，S$2. 运 输 活 性 。 


1. Biological adhesion; 2. Biological regulation; 3. Cell killing; 4. Cellular component organization or 


biogenesis; 5. Cellular process; 6. Detoxification; 7. Developmental process; 8. Growth; 9. Immune 
system process; 10. Localization; 11. Locomotion; 12. Metabolic process; 13.Multi-organism process; 
14. Multicellular organismal process; 15. Negative regulation of biological process; 16. Positive 
regulation of biological process; 17. Regulation of biological process; 18. Reproduction; 19. 
Reproductive process; 20. Response to stimulus; 21. Rhythmic process; 22. Signaling; 23. 
Single-organism process; 24. Cell; 25. Cell junction; 26. Cell part; 27. Extracellular region; 28. 
Extracellular region part; 29. Macromolecular complex; 30. Membrane; 31. Membrane part; 32. 
Membrane enclosed lumen; 33. Nucleoid; 34. Organelle; 35. Organelle part; 36. Supramolecular fiber; 
37. Symplast; 38. virion; 39. Virion part; 40. Antioxidant activity; 41. Binding; 42. Catalytic activity; 
43. Electron carrier activity; 44. Molecular function regulator; 45. Molecular transducer activity; 46. 


Nucleic acid binding transcription factor activity; 47. Nutrient reservoir activity; 48. Protein tag; 49. 


Signal transducer activity; 50. Structural molecule activity; 51. Transcription factor activity, protein 


binding; 52. Transporter activity. 


Kl4 GO 功能 注释 
Fig. 4 GO Function annotation 
2.4 COG 功能 注释 
通过 于 COG 数据 库 进 行 比 对 ， 将 20633 个 阴 地 蕨 unigene 进行 COG 注释 ， 结 
果 如 图 $。 聚 在 一 般 功 能 (general function prediction only) 的 最 多 (4559 个 ) ， 包 含 
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1000-2000 个 基因 的 艇 有 8 个 ， 包 括 翻 译 、 核 糖 体 结构 及 生物 发 生 及 转录 等 重要 的 生 
命 活 动 ， 值 得 注意 的 是 鉴定 了 995 ARARE (function unknown) 基因 。 


RNA processing and modification iE 
Chromatin structure and dynamics < EN 
Energy production and conversion prea] 
Cell cycle control, cell division, chromosome partitioning 
Amino acid transport and metabolism S 
Nucleotide transport and metabolism < JE 
Carbohydrate transport and metabolism 
Coenzyme transport and metabolism 上 到 
Lipid transport and metabolism 。 ESSEN 
Translation, ribosomal structure and biogenesis ”Ji 
Transcription 
Replication, recombination and repair p 
Cell wall/membrane/envelope biogenesis [ree 
Cell motility m 


Posttranslational modification. protein turnover, chaperones Da 
RE 


Inorganic ion transport and metabolism 
Secondary metabolites biosynthesis, transport and catabolism 
General function prediction only 
Function unknown 
Signal transduction mechanisms 
Intracellular trafficking, secretion, and vesicular transport — SE 
Defense mechanisms < mee 
Extracellular structures 
Nuclear structure 
Cytoskeleton — MEN 


5 COG 功能 注释 
Fig 5 COG Annotation 


2.5 KEGG 28 PE] DT IS TELS y P S e DAT rd 

共有 29 377 条 基因 比 对 到 六 大 类 、21 亚 类 代谢 通路 上 (图 6) ， 其 中 数量 最 多 
的 是 新 陈 代谢 Cmetabolism) 通路 ， 有 17698 个 基因 ， 占 60%; 最 少 的 是 与 人 类 疾 
病 相 关 的 基因 ， 共 141 个 〈 因 阴 地 蕨 属 植 物 ) ;与 有 机 系统 Corganismal system? 环 
境 适 应 〈environmental adaption) 有 关 的 基因 有 1 266 个 。 根 据 KEGG 信号 途径 
map04075, 将 经 注释 的 相关 基因 进行 归 类 , 得 植物 激素 信号 转 导 相关 的 候选 基因 〈 表 
3) 。 
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Fig. 6 KEGG Pathway Analysis 
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Table3 Genes in plant hormone signal transduction pathways of Botrychium ternatum 


激素 名 称 涉及 基因 生物 作用 
Plant hormone Related genes Biological function 
生长 素 AUXI(17) 细胞 增 大 Cell enlargement 
Auxin TIR1(14) 植物 生长 Plant growth 
AUX/IAA(23) 
ARF(71) 
GH3(11) 
SAUR(16) 
细胞 分 裂 素 CREI(19) 细胞 分 裂 Cell division 
Cytokinine AHP(8) 芽 形 成 Shoot initiation 
B-ARR(67) 
A-ARR(7) 
IEA GID1(18) ZÆ K Stem growth 
Gibberellin GID2(7) 诱导 萌发 Induced germination 
DELLA(42) 
TF '(129) 
脱落 酸 PYR/PYL(15) 气孔 关闭 Stomatal closure 
Abscisic acid PP2C(48) 种 子 休眠 Seed dormancy 
SnRK2(23) 
ABF(32) 
iH SER ERN BAK1(39) 细胞 伸 长 Cell elongation 
Brassionsteroid 
BRII(83) 细胞 分 裂 Cell division 
BSK(5) 
BKI1(3) 
BIN2(1) 
BZR1/2(8) 
TCH4(8) 
CYCD3(1) 
cas ETR(12) 果实 成 熟 Fruit ripening 
Ethylene CTR1(27) 老化 Senescence 
MPK6(6) 
EIN2(7) 
EBF1/2(6) 
EIN3(13) 
EFR1/2(3) 
EX JL JARI(6) aen 
Monoterpenoid biosynthesis 
Jasmonic acid COI1(3) 叫 吹 生物 碱 合成 
Indole alkaloid biosynthesis 
JAZ(24) 
MYC2(58) 
水 杨 酸 NPR1(3) 抗 病 Disease resistance 
Salicylic acid TGA(21) 


PR-1(7) 


Hk: 括号 中 数字 是 基因 数目 。” 此 处 TF 是 指 PIF4 和 PIF3 。 
Note: numbers in brackets are numbers of genes. ' TF here indicates PIF4 and PIF3. 


2.6 转录 组 结构 

CDS: 通过 BLAST 得 到 38 212 个 CDS， 用 ESTScan 方法 得 到 4 890 个 CDS， 
得 到 43 102 ^ CDS, FHKE 749 bp, N50 为 1 137。 

TF: HER 60 个 转录 因子 基因 家 族 共 1 502 个 TF 基因 ， 数 量 超过 100 的 有 
C3H MYB 和 MYB-related 以 及 bHLH 转录 因子 家 族 , 其 它 较 多 的 还 有 AP2-EREBP、 
WRKY、GRAS 等 转录 因子 。 

SNP: 共 发 现 17 195 个 SNP 位 点 ， 其 中 碱 基 转 换 11 122 个 ， 包 括 A-G 5 452 个 ， 
C-T5 670 个 ; Mit 6073 个 , 包括 A-C 1 444 个 ，A-T 1729 ^^, C-G1418 4^, G-T I 
482 个 。 

SSR: 最 多 的 是 二 核 苷 酸 重 复 ， 有 3 666 个 ， 其 次 是 三 核 昔 酸 重复 ，3 439 个 ， 接 
下 来 依次 是 单 核 背 酸 重 复 C563 M). EERE (2600 、 四 核 昔 酸 重复 C169) 
和 五 核 苷 酸 重复 〈148) 。 


L 


NI 


3 讨论 

阴 地 蕨 是 民间 和 常用 的 药 用 、 非 模式 植物 ， 主 要 药 用 成 分 为 黄酮 类 和 多 糖 类 。 
通过 转录 组 测序 (RNA-seq) 测 得 阴 地 蕨 转录 组 clean bases 共 6.67 Gb, 各 项 指标 显示 
测序 深度 、 组 装 读 长 均 较 好 。 对 unigene 在 七 大 数据 库 中 进行 注释 ， 发现 注释 率 最 高 
的 是 NR 数据 库 ， 因 NR 数据 库 本 身 数据 量 大 ,包含 经 过 验证 的 和 预测 的 蛋白 ， 所 以 
注释 紊 虽然 高 , 但 是 注释 结果 仍然 需要 结合 其 它 数 据 库 的 注释 来 考虑 。 从 NR, COG, 
KEGG、Swissprot 以 及 Interpro 的 注释 结果 韦 恩 图 分 析 (图 3) ， 可 以 看 出 有 12 522 
个 unigene 是 处 于 这 五 个 数据 库 的 交集 ， 意 为 着 这 部 分 基因 的 注释 可 靠 性 较 高 。 

GO, COG 和 KEGG 注释 是 基因 注释 的 重要 途径 ， 分 别 从 基因 本 体 (gene 
oncology ) ~ RÆ (cluster) 以 及 通路 (pathway) 进行 描述 。 在 COG 分 析 中 ， 发 
现 有 995 个 功能 未 知 unigene， 占 4.896. DH ENTRARA CEusporangiopsida) Jf 
儿 小 草 目 (Ophioglossales) 植物 ， 是 众多 蕨 类 植物 中 的 一 员 。 套 类 植物 在 地 球 上 分 
布 广 、 存 在 时 间 长 ， 大 部 分 可 以 形成 苞 子 ， 处 于 低 等 植物 癌 高 等 植物 过 度 的 位 置 ， 
生长 发 育 过 程 有 自身 特色 (Christenhusz & Chase, 2014; 张 开 梅 等 ，2016) 。 将 阴 地 
蕨 转录 组 与 其 它 藤 类 如 石松 目的 蛇 足 石 杉 全 株 〈Yang et al., 2017) 转录 组 进行 比较 ， 
发 现 总 体 注 释 率 均 在 55%-60%, KEGG 注释 的 途径 中 涉及 基因 最 多 的 也 是 代谢 ， 另 
外 这 两 种 植物 中 对 于 环境 适应 的 基因 也 都 占 到 一 定 比例 ， 说 明 蕨 类 植物 对 于 环境 的 
适应 调动 了 不 少 基因 ， 所 以 能 较 好 地 适应 环境 变化 ， 成 为 现存 的 一 类 古老 植物 。 
此 研究 阴 地 蕨 这 类 植物 的 生长 发 育 有 一 定 的 意义 ， 尤 其 是 那些 筛 选 出 来 但 是 功能 
知 的 基因 值得 进一步 探讨 。 

植物 激素 是 影响 植物 生长 发 育 的 重要 因素 ， 通 过 KEGG 分 析 找 出 了 目前 已 知 的 
八条 植物 激素 信号 转 导 途径 中 的 基因 ， 大 部 分 基因 家 族 包 含 的 基因 数目 较 少 ， 比 较 
方便 下 一 步 的 克隆 、 分 析 及 功能 鉴定 等 研究 ， 但 是 有 的 基因 家 族 包含 的 基因 数目 较 
多 ， 如 赤 霉 素 途 径 中 的 TF 和 DELLA、 油 菜 素 当 醇 途 径 中 的 BRI1、 细 胞 分 裂 素 途 径 
中 的 B-ARR、 脱 落 酸 途径 中 的 PP2C 等 都 有 好 几 十 、 甚 至 上 百 个 成 员 ， 这 就 需要 进 
一 步 找 出 关键 基因 、 缩 小 研究 范围 ， 可 以 通过 对 不 同 组 织 、 器 官 或 者 不 同 处 理 后进 
行 差异 表达 基因 (Different Expressed Genes,DEGs) 分 析 ， 这 也 是 本 研究 的 局 限 。 另 
外 ， 虽 同属 于 蕨 类 植物 ， 但 是 有 些 蕨 类 生长 特性 差别 很 大 ， 阴 地 蕨 生长 迅速 ， 每 年 
以 孢子 方式 繁殖 ， 蛇 足 石 杉 生长 缓慢 ,孢子 萌发 需要 数 年 (Guo et al.,2009)。 对 比 蛇 足 
石 杉 植物 激素 信号 转 导 途径 涉及 的 基因 数量 (本 实验 室 数 据 ， 存 放 于 


http://bigd.big.ac.cn/gsa, 登 录 号 PRJCA001325) ， 发 现 有 的 基因 家 族 组 成 有 很 大 的 不 同 ， 
数量 差别 达 一 倍 以 上 : 在 阴 地 蕨 的 赤 霉 素 信 号 途径 中 的 鉴定 出 的 TF CPIFA 和 了 PIF3) 、 
油菜 素 内 酯 信号 途径 BAK1、BZR1/2 和 TCH4 家 族 包 含 更 多 基因 ， 而 在 蛇 足 石 杉 的 
分 裂 素 信号 途径 中 CRE1 和 A-ARR、 油 菜 素 内 酯 信号 途径 BSK、 脱 落 酸 信号 途径 
NPR1 和 TGA 基因 家 族 拥 有 更 多 基因 ， 暗 示 以 上 基因 在 这 两 种 植物 中 可 能 具有 不 同 
的 生长 调控 作用 ， 而 这 两 种 植物 表现 出 不 同 的 生长 模式 的 原因 很 有 可 能 与 这 些 基 因 
家 族 有 关 。 

除了 内 源 性 的 激素 等 因素 ， 外 界 环 境 如 光照 、 温 度 、 刺 激 、 土 壤 等 等 都 会 对 植 
物 的 生长 发 育 产生 影响 。 很 多 研究 致力 于 找到 几 种 影响 因素 的 关键 节点 〈 如 光 温 ， 
害虫 和 微生物 等 ), 多 组 学 和 系统 生物 学 不 失 为 研究 复杂 调控 网 络 的 手段 之 一 (Meena 
et al., 2017;Myburg et al., 2019;Choi, 2019). 
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